我国自主研发的高并发、分布式、实时图数据库系统嬴图,取得技术创新——计算响应速度成功达到“实时”水平,运行速度是以甲骨文(Oracle)为代表的关系型数据库的10000倍。
20毫秒有多快?一秒钟的五十分之一,就是我们完成一次眨眼的时间。
来看一组简单的对比:在一个拥有100万量级的用户关系数据集中,用 Python NetworkX完成鲁汶社区识别需要 10个小时;用公有云AWS或华为云图计算系统需要 3个小时,而嬴图系统可以做到在20毫秒内完成。这种性能差异的主要原因在于底层计算引擎在技术上实现了高密度并发原生图计算的能力。
区别于传统的数据库、数据仓库等长期以来偏重存储能力的技术偏向,嬴图的研发团队从一开始就将实现计算能力与存储能力放在同等重要的基础研发方向上。
经过三年的钻研,截至目前,这支由清华校友组建并创研的嬴图图数据库系统已实现了核心代码完全自研,性能全面超越TigerGraph、Neo4j、JanusGraph、ArangoDB等国际图数据库产品。
截止今年3月,在业界多次通用、公开数据集性能对标测试中,嬴图产品能力在数据加载、K邻查询、路径查询、图算法、实时更新、易用性、二次开发等多个指标的能力测试中得到了充分验证。记者在其官方评测报告中看到如下结论:“在K邻查询上,嬴图比Tigergraph、Neo4j、JanusGraph和ArangoDB快至少10倍以上,事实上,超过6跳的超深度查询,只有Ultipa可以返回结果;在图算法上的测试对比中,很多系统根本无法完成算法执行,只有嬴图完成计算。”
嬴图全栈工程师、图技术与应用专家张建松表示,Neo4j、ArangoDB等“在一些复杂查询情况无法完全返回结果”的原因在于技术上没有实现高效并发计算,当它们处理小的数据集时,不会暴露问题,而一旦处理诸如像Twitter数据集中涉及到4200万的顶点与 14.7亿条边的较大数据集时,系统会因为计算和存储资源不够而宕机。
此外,完成K邻查询也是个挑战,它用来测试各家系统面向海量数据时的遍历能力、下钻能力和全量计算所需的时耗。“K邻查询通常会探测不同的遍历深度条件下的时耗。通常1度邻居(数据库专有名词)各家的图数据库都可以做到秒级,快一些的图数据库会在毫秒级,但是从2度邻居查询开始,因为计算复杂度的指数级增加,极少有系统可以做到毫秒级,而6度邻居能做到秒级的系统已属于凤毛麟角,因为6跳查询基本上是对全量数据,大约是15亿量级的一次全部遍历计算。”张建松说。
据了解,测试数据集的大小之所以一般会选择在千万到数十亿的量级,是为了模拟接近真实的商业场景。而在商业化应用场景中,实时图计算带来的算力上的颠覆彻底解决了嬴图图数据库用户罗佳嘉的痛点。
作为国内某零售银行技术部门的总管,两年来,他时感压力重重,“数据一入仓湖便沉底了,基于关系型数据建模的的数仓、大数据系统运转非常吃力,效率十分低下,时耗很大。”
原来,受疫情影响,线上业务的办理人群已由过去的青年人覆盖到中老年人群,同时,银行也开启了多条围绕线上的各类金融产品,面对剧增的数据处理需求,尤其是面对千万甚至百亿量级上的图数据集规模处理问题,数据库系统计算性能上的优劣让其有直观切身感受。
“目前,以甲骨文为代表的传统数据库系统虽然仍在很多场景中使用,但在处理海量、动态变化的数据需求方面,明显呈现出时效差、算的慢、计量粗糙等问题,且在易用性、灵活性和成本上短板日显。”
所谓春江水暖鸭先知,作为对掌握着国民经济基础的金融行业来说,尤其是面对每天产生的海量数据,实时计算能力已成为银行错位竞争的分水岭。“金融机构过去成熟的批处理数据架构早已难以应对,需要构建新一代的实时数据架构体系以便实现数字化转型中的换挡加速”罗佳嘉对记者说。
我国高性能计算与存储系统专家孙宇熙表示,很多数据仓库或 Hadoop等大数据阵营存在着明显的问题,它们或许可以存储无限的数据,但是却存在很大的性能瓶颈,这让越来越多的查询与分析操作变成了批处理和 T+1才能完成。“这或许可以解释为什么近年来越来越多的商业落地场景中,基于内存计算、图计算的解决方案和其它一些新型的基础架构正在开始取代现有的数仓、大数据系统,究其根本就是因为这些系统仅仅把存储引擎作为一等公民,而把算力作为附属于存储的二等公民,自然会出现数据一入仓湖便沉底的低效问题。”
此外,数据的时效性对银行的精细化运营越来越重要,如何能以高效、实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。如今,在该行的实时大数据分析应用上,图计算(图中台)系统已发挥威力,其在运算效率以及易用性上,更让身为运营管理的业务人员体验感十足:他们能随时查询各类指标,实时计算,随时调取所需的数据进行多维度下钻、溯源、归因分析,让跨部门业务人员真正做到全行一张图,统一口径,从最小颗粒度的明细数据进行分析,彻底的规避了之前多部门、多系统之间的口径不统一、规则不统一、视角不统一等诸多痛点……此外,该系统还被应用在在线实时反欺诈、反洗钱、流动性风险管理、智慧经营等各个业务层面……
孙宇熙介绍,数据库是计算机基础软件不可或缺的重要组成部分,它被创造出来的目的就是为了解决人类日常所面对的数据存储、数据转换、数据分析、汇总、报表等一系列工作需求,包括金融、交通、制造业甚至国防也都是依靠数据要素的行业领域。在过去的40年间,凭借着架构与算力提升带来的变革,数据技术也先后经历了从关系型数据库到大数据、快数据,再到深数据(图数据)的历史演变。以银行业中的指标计算与归因分析举例,涉及了大量明细数据、分行-支行、客户经理、客群、条线、行业、指标子项、客户账户信息等多个维度的综合计算,如果用传统的关系型数据库来计算,因为“笛卡尔积”多表关联类的复杂查询而导致的计算复杂度将是个天文数字,而用图技术来建模和实现,是加和而非乘积的关系——两者之间在技术处理的内核上即存在着本质区别。
据了解,区别于其他基于开源、部分自主可控的国内图数据库产品,嬴图的核心代码完全自研自主——成功打破了过去40年由西方主导的在数据库领域的技术霸权。